MetaDance: Few-shot Dancing Video Retargeting via Temporal-aware Meta-learning
Dancing video retargeting aims to synthesize a video that transfers the dance movements from a source video to a target person. Previous work need collect a several-minute-long video of a target person with thousands of frames to train a personalized model. However, the trained model can only generate videos of the same person. To address the limitations, recent work tackled few-shot dancing video retargeting, which learns to synthesize videos of unseen persons by leveraging a few frames of them. In practice, given a few frames of a person, these work simply regarded them as a batch of individual images without temporal correlations, thus generating temporally incoherent dancing videos of low visual quality. In this work, we model a few frames of a person as a series of dancing moves, where each move contains two consecutive frames, to extract the appearance patterns and the temporal dynamics of this person. We propose MetaDance, which utilizes temporal-aware meta-learning to optimize the initialization of a model through the synthesis of dancing moves, such that the meta-trained model can be efficiently tuned towards enhanced visual quality and strengthened temporal stability for unseen persons with a few frames. Extensive evaluations show large superiority of our method.
ダンス映像のリターゲッティングは、ソース映像のダンスの動きをターゲット人物に移す映像を合成することを目的としています。従来の研究では、パーソナライズされたモデルを学習するために、数千フレームからなるターゲット人物の数分のビデオを収集する必要がある。しかし、学習されたモデルは同一人物の映像しか生成できない。このような制限を解決するために、最近の研究では、数フレームの人物を利用して未知の人物の動画を合成することを学習する、数ショットダンスビデオリターゲットに取り組んでいます。しかし、これらの研究では、人物の数フレームを時間的相関のない個々の画像の集まりとみなすため、時間的に非干渉な低品質のダンス映像が生成されてしまいます。本研究では,数フレームの人物を,連続する2つのフレームを含む一連のダンス動作としてモデル化し,人物の外観パターンと時間的ダイナミクスを抽出する.このメタ学習により、数フレームの未視認人物に対して、視覚的品質の向上と時間的安定性の強化に向けて、メタ学習されたモデルを効率的に調整することができる。本手法は、広範な評価により、大きな優位性を持つことが示された。